使用指南算法Group Relative Policy Optimization (GRPO)本页总览Group Relative Policy Optimization (GRPO) 简介 Group Relative Policy Optimization (GRPO) 是一种强化学习算法,它通过消除对价值函数(critic)模型的需求来简化训练过程。GRPO通过以下方式工作: